DMIT 发现 TYO.EB 从今天开始出现丢包现象。
我们已就此事联系了 CMI。
目前,DMIT 观察到丢包从中国的第一跳开始,而日本的设备没有丢包。
看来中国移动的骨干网出现了一些问题。
我们已将此事上报至 CMI NOC 的更高级别。
随时向您更新。
我们已就此事联系了 CMI。
目前,DMIT 观察到丢包从中国的第一跳开始,而日本的设备没有丢包。
看来中国移动的骨干网出现了一些问题。
我们已将此事上报至 CMI NOC 的更高级别。
随时向您更新。
DMIT Inc - NOC工作日志
HKG 某节点异常 内存报错,冷重启无法解决,已禁用相关插槽,正在整机迁移待后续安排RH更换
已完成,正在等待批量启动,如有需求可以面板手动启动
DMIT Inc - NOC工作日志
LAX 发现 CN2 AS4809 网络存在异常丢包,已联系 CTG NOC,请等待后续反馈
CTG 回复,由于DMIT使用的CN2骨干链路相邻客户遭受DDoS攻击,且未自行快速封堵,导致CN2部分骨干堵塞。
这使DMIT的链路因此受到影响,我们仍在跟进确保此问题得到缓解,且不再发生。
*CN2 骨干采用静态LSP,客户端口静态采用各条骨干,因此只有部分客户受到影响
*CN2 骨干自动黑洞采用Flow 检测,自动响应需要3-10分钟
*一般情况客户需要自行RTBH来确保95/5 不超量,且网络不受DDoS影响
这使DMIT的链路因此受到影响,我们仍在跟进确保此问题得到缓解,且不再发生。
*CN2 骨干采用静态LSP,客户端口静态采用各条骨干,因此只有部分客户受到影响
*CN2 骨干自动黑洞采用Flow 检测,自动响应需要3-10分钟
*一般情况客户需要自行RTBH来确保95/5 不超量,且网络不受DDoS影响
【最终通知】
根据我们之前的通信,请注意 HKG Legacy 产品系列已经停止。
为确保您有足够的时间检索数据,我们已暂停您的 HKG Legacy 服务。建议您尽快找回数据。
!!! 截止日期为 2025 年 3 月 20 日,之后您的 HKG Legacy 服务将正式终止。!!!
!!! 请确保在截止日期前找回数据,以避免数据丢失。!!!
有关其他详情,请阅读您收到的邮件邮件。
根据我们之前的通信,请注意 HKG Legacy 产品系列已经停止。
为确保您有足够的时间检索数据,我们已暂停您的 HKG Legacy 服务。建议您尽快找回数据。
!!! 截止日期为 2025 年 3 月 20 日,之后您的 HKG Legacy 服务将正式终止。!!!
!!! 请确保在截止日期前找回数据,以避免数据丢失。!!!
有关其他详情,请阅读您收到的邮件邮件。
DMIT Inc - NOC工作日志 pinned «【最终通知】 根据我们之前的通信,请注意 HKG Legacy 产品系列已经停止。 为确保您有足够的时间检索数据,我们已暂停您的 HKG Legacy 服务。建议您尽快找回数据。 !!! 截止日期为 2025 年 3 月 20 日,之后您的 HKG Legacy 服务将正式终止。!!! !!! 请确保在截止日期前找回数据,以避免数据丢失。!!! 有关其他详情,请阅读您收到的邮件邮件。»
时间: 2025 年 4 月 10 日 ~ 4 月 30 日
服务: 所有虚拟机。
影响: IO 和网络性能降低;多次重启。
持续时间: 每个虚拟机少于 5 小时。
说明:
- 与 LAX.T1 合并。
香港维护
时间: 2025 年 4 月 13 日 ~ 4 月 17 日
服务: 所有虚拟机。
影响: 重新启动。
持续时间: 每个虚拟机少于 3 小时。
描述:
- 将 CPU 从 7402 平台更换为 7003 平台。
- 从以前的机架供应商迁移到 DMIT 的 Equinix 机架。
DMIT Inc - NOC工作日志 pinned «圣荷西维护 (已完成) 时间: 2025 年 4 月 10 日 ~ 4 月 30 日 服务: 所有虚拟机。 影响: IO 和网络性能降低;多次重启。 持续时间: 每个虚拟机少于 5 小时。 说明: - 与 LAX.T1 合并。 香港维护 时间: 2025 年 4 月 13 日 ~ 4 月 17 日 服务: 所有虚拟机。 影响: 重新启动。 持续时间: 每个虚拟机少于 3 小时。 描述: - 将 CPU 从 7402 平台更换为 7003 平台。 - 从以前的机架供应商迁移到 DMIT 的 Equinix…»
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
DMIT Inc - NOC工作日志
香港维护完成 迁移后出现的时间戳问题也已修复。
由于部分VM启动后从系统携带错误时间戳可能导致SSL错误;
请您使用Google 或者 Cloudflare的NTP服务器更新时间(模板已携带)
或重启从KVM硬件获取
请您使用Google 或者 Cloudflare的NTP服务器更新时间(模板已携带)
或重启从KVM硬件获取
DMIT Inc - NOC工作日志
经过数日观测已经恢复正常;
经过此事件可知 AS10099-9929 回国无备份链路。
DMIT将继续观察。
注:
- DMIT的SLA仅基于VM可用率、VM互联网可访问率,以及优化链路的路由;
- 如果优化链路本身产生丢包、延迟变化、故障则不再DMIT的承诺之内;
- CN2的SLA即便超出其承诺也不是提供全额赔付;
- CUP 暂时无SLA。
经过此事件可知 AS10099-9929 回国无备份链路。
DMIT将继续观察。
注:
- DMIT的SLA仅基于VM可用率、VM互联网可访问率,以及优化链路的路由;
- 如果优化链路本身产生丢包、延迟变化、故障则不再DMIT的承诺之内;
- CN2的SLA即便超出其承诺也不是提供全额赔付;
- CUP 暂时无SLA。
DMIT Inc - NOC工作日志
HKG 某台宿主机异常重启,正在检查
已取出数据,正在迁移启动,系统面板仍需要稍晚恢复。请不要在系统内关机,以免无法及时恢复。
所有服务已于香港时间晚上 10 点恢复。
SLA 赔偿金已经发放。
迁移后控制面板已恢复。
新节点的 CPU 或主板出现故障,导致无法通过 POST。
DMIT 已经订购了几个新节点。
====
DMIT 目前使用的 WHMCS 和相应模块存在太多遗留问题。尽管 DMIT 已对其中大部分进行了重新编码。
目前,配置文件丢失是节点故障后虚拟机无法快速恢复的主要原因。
我们已经想出了一种新的虚拟机管理方法,它能让我们以更安全、更灵活的方式管理虚拟机的配置文件。
这种方法将在新架构中编写,并与当前架构兼容,以帮助平稳过渡。
SLA 赔偿金已经发放。
迁移后控制面板已恢复。
新节点的 CPU 或主板出现故障,导致无法通过 POST。
DMIT 已经订购了几个新节点。
====
DMIT 目前使用的 WHMCS 和相应模块存在太多遗留问题。尽管 DMIT 已对其中大部分进行了重新编码。
目前,配置文件丢失是节点故障后虚拟机无法快速恢复的主要原因。
我们已经想出了一种新的虚拟机管理方法,它能让我们以更安全、更灵活的方式管理虚拟机的配置文件。
这种方法将在新架构中编写,并与当前架构兼容,以帮助平稳过渡。
首先向所有受影响的 LAX 客户道歉,下面是 LAX 数据中心此次离线的一些初步调查,完整的事件调查结果在数据中心向我们提供后会在英文频道中同步。
2025年5月7日北京时间上午 7 时 30 分左右,位于 LAX 的 West 7 Center 数据中心因不明原因触发火警,为保证尽量减少扩大损失,数据中心的消防系统自动启动,所有机柜的电源被切断,导致数据中心内的所有服务器和网络设备全部断电。由于数据中心内的 UPS 电池组在火警触发后也被切断电源,导致 UPS 无法正常工作。但照明电源仍然保持正常供电。
随后各方在现场做了以下工作,并在下午 12 时 20 分左右恢复了电力供应:
- DMIT 派遣工程师前往现场进行检查,工程师在现场闻到了不明的烟味。经过检查,我们的机柜和设备没有发现异常情况。等待数据中心恢复供电。
- 数据中心的工程师努力排查触发火警的原因,并在风险可控的范围内尽量减少影响范围尝试恢复供电。
- 数据中心方面尝试恢复电力供应,但是发现 UPS 无法正常工作,因此再次派遣 UPS 工程师前往现场进行检查。
- UPS 工程师到场检查并修复 UPS 系统使其工作。
电力恢复供应后,DMIT 检查了所有设备的状况,确认设备未受影响,开始陆续启动所有设备。
目前 DMIT LAX 数据中心的所有设备都已恢复服务,如果您的服务仍然无法访问,请提交工单以联系我们。
对于此次离线,我们深感抱歉,并感谢大家的耐心等待。虽然在线率仍在 SLA 补偿标定限度以上(故障时长约 5 小时左右),但是我们仍然决定为所有受影响的客户提供补偿,以下是具体补偿措施。
- 所有受影响的 LAX 服务,基于服务续费价格补偿 5 天的价值(若计算后补偿金额低于 0.5 USD,则补偿 0.5 USD)添加到您的 DMIT 账户中。
- 对于所有 DMIT 现有客户,增购 DMIT 所有在售的月均费用超过 3.33USD(T1系列产品不受此限制) 的产品,均可使用 2025-EXISTING-CUSTOMER-10OFF 优惠码享受 10% 的折扣,有效期至 2025 年 6 月 30 日。
优惠码使用范围及条件如下:
- 可适用于特价产品,若有货或您有资格申请特价产品订单(HKG Pro Mongkok & Nathan 不在范围内)
- 账户内至少有一个成功的购买订单记录(不限当前产品状态)
再次感谢所有用户的长期支持,我们将持续改善服务的稳定性和可靠性,此次事件的具体调查结果会在数据中心提供后同步到以下的英文频道中。
@DMIT_INC
2025年5月7日北京时间上午 7 时 30 分左右,位于 LAX 的 West 7 Center 数据中心因不明原因触发火警,为保证尽量减少扩大损失,数据中心的消防系统自动启动,所有机柜的电源被切断,导致数据中心内的所有服务器和网络设备全部断电。由于数据中心内的 UPS 电池组在火警触发后也被切断电源,导致 UPS 无法正常工作。但照明电源仍然保持正常供电。
随后各方在现场做了以下工作,并在下午 12 时 20 分左右恢复了电力供应:
- DMIT 派遣工程师前往现场进行检查,工程师在现场闻到了不明的烟味。经过检查,我们的机柜和设备没有发现异常情况。等待数据中心恢复供电。
- 数据中心的工程师努力排查触发火警的原因,并在风险可控的范围内尽量减少影响范围尝试恢复供电。
- 数据中心方面尝试恢复电力供应,但是发现 UPS 无法正常工作,因此再次派遣 UPS 工程师前往现场进行检查。
- UPS 工程师到场检查并修复 UPS 系统使其工作。
电力恢复供应后,DMIT 检查了所有设备的状况,确认设备未受影响,开始陆续启动所有设备。
目前 DMIT LAX 数据中心的所有设备都已恢复服务,如果您的服务仍然无法访问,请提交工单以联系我们。
对于此次离线,我们深感抱歉,并感谢大家的耐心等待。虽然在线率仍在 SLA 补偿标定限度以上(故障时长约 5 小时左右),但是我们仍然决定为所有受影响的客户提供补偿,以下是具体补偿措施。
- 所有受影响的 LAX 服务,基于服务续费价格补偿 5 天的价值(若计算后补偿金额低于 0.5 USD,则补偿 0.5 USD)添加到您的 DMIT 账户中。
- 对于所有 DMIT 现有客户,增购 DMIT 所有在售的月均费用超过 3.33USD(T1系列产品不受此限制) 的产品,均可使用 2025-EXISTING-CUSTOMER-10OFF 优惠码享受 10% 的折扣,有效期至 2025 年 6 月 30 日。
优惠码使用范围及条件如下:
- 可适用于特价产品,若有货或您有资格申请特价产品订单(HKG Pro Mongkok & Nathan 不在范围内)
- 账户内至少有一个成功的购买订单记录(不限当前产品状态)
再次感谢所有用户的长期支持,我们将持续改善服务的稳定性和可靠性,此次事件的具体调查结果会在数据中心提供后同步到以下的英文频道中。
@DMIT_INC
Incident Report L1-135 (05-16-2025) Update (05-26-2025).pdf
276.6 KB
📢【事故通报】L1-135 电力中断事件
2025 年 5 月 6 日,我们上游数据中心合作方的 L1-135 机房发生两起电力相关事故,影响到了所有洛杉矶客户:
1️⃣ 主要故障 – 机房母线弧光爆炸
由于下游接地故障,主配电间天花板上的 4000A 母线槽发生电弧闪络爆炸,导致市电和发电机电源全部中断。机房电力在当天下午 5:33 恢复,UPS 系统于晚上 9:00 完全恢复正常运行。
2️⃣ 次要问题 – 客户设备 PDU 故障
一台 第三方客户自带 PDU(非 DMIT 设备)出现间歇性接地故障,导致 UPS 旁路模块跳闸,延缓了恢复过程。该设备已于 5 月 14 日移除。
⚠️ DMIT 立场声明:
虽然我们感谢机房方的调查,但 DMIT Cloud Service 不完全认同其结论。我们认为,单一 PDU 故障不应影响整个 UPS 系统,IDC 方应具备 更强的故障隔离机制 来避免类似问题影响整个区域。
✅ DMIT Cloud Service 后续行动:
🔁 网络架构优化: 将所有 三层网络设备迁出 W7C,确保其他机房的 IP 客户 不会因单点故障而受影响。
🧭 新增可用区: 计划于 2025 年底前在洛杉矶新增一个 独立可用区。
🔄 双可用区支持: 虚拟机客户将可选择部署在 不同可用区或启用 双可用区冗余。
🤝 与 IDC 合作优化: 正在与 IDC 方积极沟通,提升其电力系统稳定性与故障隔离能力。
感谢您的理解与信任。目前所有服务均已全面恢复并稳定运行。
2025 年 5 月 6 日,我们上游数据中心合作方的 L1-135 机房发生两起电力相关事故,影响到了所有洛杉矶客户:
1️⃣ 主要故障 – 机房母线弧光爆炸
由于下游接地故障,主配电间天花板上的 4000A 母线槽发生电弧闪络爆炸,导致市电和发电机电源全部中断。机房电力在当天下午 5:33 恢复,UPS 系统于晚上 9:00 完全恢复正常运行。
2️⃣ 次要问题 – 客户设备 PDU 故障
一台 第三方客户自带 PDU(非 DMIT 设备)出现间歇性接地故障,导致 UPS 旁路模块跳闸,延缓了恢复过程。该设备已于 5 月 14 日移除。
⚠️ DMIT 立场声明:
虽然我们感谢机房方的调查,但 DMIT Cloud Service 不完全认同其结论。我们认为,单一 PDU 故障不应影响整个 UPS 系统,IDC 方应具备 更强的故障隔离机制 来避免类似问题影响整个区域。
✅ DMIT Cloud Service 后续行动:
🔁 网络架构优化: 将所有 三层网络设备迁出 W7C,确保其他机房的 IP 客户 不会因单点故障而受影响。
🧭 新增可用区: 计划于 2025 年底前在洛杉矶新增一个 独立可用区。
🔄 双可用区支持: 虚拟机客户将可选择部署在 不同可用区或启用 双可用区冗余。
🤝 与 IDC 合作优化: 正在与 IDC 方积极沟通,提升其电力系统稳定性与故障隔离能力。
感谢您的理解与信任。目前所有服务均已全面恢复并稳定运行。
端午安康,首先祝大家度过一个愉快的假期。
我们已经将 HKG Pro 系列的所有产品升级了传输额度,现有用户都已升级完成。
以下是具体的额度升级列表
HKG.Pro.MongKok 200GB -> 300GB
HKG.Pro.Nathan 300GB -> 450GB
HKG.Pro.Victoria 500GB -> 800GB
HKG.Pro.Lokmachau 600GB -> 1000GB
HKG.Pro.TINY 400GB -> 500GB
HKG.Pro.STARTER 800GB -> 1000GB
HKG.Pro.MINI 1200GB -> 1500GB
HKG.Pro.MICRO 1600GB -> 2000GB
HKG.Pro.MEDIUM 1800GB -> 2500GB
HKG.Pro.LARGE 2400GB -> 3000GB
HKG.Pro.GIANT 3000GB -> 6000GB
如果您有任何疑问或者问题,欢迎随时通过工单与我们联系。
我们已经将 HKG Pro 系列的所有产品升级了传输额度,现有用户都已升级完成。
以下是具体的额度升级列表
HKG.Pro.MongKok 200GB -> 300GB
HKG.Pro.Nathan 300GB -> 450GB
HKG.Pro.Victoria 500GB -> 800GB
HKG.Pro.Lokmachau 600GB -> 1000GB
HKG.Pro.TINY 400GB -> 500GB
HKG.Pro.STARTER 800GB -> 1000GB
HKG.Pro.MINI 1200GB -> 1500GB
HKG.Pro.MICRO 1600GB -> 2000GB
HKG.Pro.MEDIUM 1800GB -> 2500GB
HKG.Pro.LARGE 2400GB -> 3000GB
HKG.Pro.GIANT 3000GB -> 6000GB
如果您有任何疑问或者问题,欢迎随时通过工单与我们联系。